OpenSearch文本向量场景快速入门_智能开放搜索 OpenSearch(Open Search)-阿里云帮助中心

购买实例

配置集群

在实例列表页，新购买的实例其状态为“待配置”，之后需要点击操作栏里的配置，进入实例详情页，为实例配置表基础信息 > 数据同步 > 字段配置 > 索引结构 > 确认创建，最后等待索引重建完成即可正常搜索。

1. 表基础信息

表管理 → 添加表，进入到表基础信息页面，依次输入表名称，设置 数据分片数 和 数据更新资源数 ，场景模板选择 向量：文本语义搜索 - 稠密向量检索，确认设置信息无误后，点击下一步。

配置说明：

表名称：可自定义
数据分片数：分片数设置时，请填写不超过256的正整数，用于提升全量构建速度、单次查询性能。（部分存量实例，仍需各索引表分片数保持一致；或至少一个索引表分片数为1，其余索引表分片数一致）
数据更新资源数：数据更新所用资源数，每个索引默认免费提供2个4核8G的更新资源，超出免费额度的资源将产生费用，详情可参考向量检索版计费概述
场景模板：向量检索版内置了3种模板可供用户选择：通用、向量-图片搜索、向量-文本语义模板

2. 数据同步

选择全量数据来源（目前支持的数据源有MaxCompute+API、对象存储OSS+API、数据湖构建（DLF）和API数据源），本文以MaxCompute+API为例，依次设置AccessKey、AccessKey Secret、Project、Table、Partition，按需选择是否开启自动索引重建，设置完成后在数据来源校验点击校验，通过后才可以进行下一步操作。

3. 字段配置

向量检索版会根据选择的场景模板，预置相关字段，并将全量数据来源中的字段，自动导入字段列表中。除了自动预设的字段外，我们还可以结合业务情况手动填写字段。

文本语义搜索模板场景的 4 个预设字段说明：

id（主键）
source_text（源文本）
namespace（命名空间)
source_text_vector、（向需要文本向量化的文本字段）

字段配置说明：

必选字段：主键字段和向量字段，主键字段为int或string类型并且需要勾选主键按钮，向量字段为float类型并且需要勾选向量字段按钮。
向量字段默认为多值的float类型，控制台建表默认采用逗号切分，支持自定义多值分隔符。
文本向量化的字段需要勾选“需embedding字段”
使用向量检索，在定义字段时有位置要求，需要按照主键字段、命名空间字段（非必要）、向量字段的顺序创建。（如上图所示）
在需数据预处理的去配置，可以对字段source_text数据预处理配置进行配置。

字段source_text数据预处理配置说明：

预处理模板：预处理会根据选择的场景模板，展示每种数据类型支持的模板，由于选择的是（文本语义搜索 — 稠密向量检索）场景模板，所以预处理模板展示的是稠密向量化、稠密+稀疏向量化两种。
服务列表：选定预处理模板后，自动出现模板下的服务列表。
模型：
- 在文本向量化类型中包含了内置和 AI平台 两类模型供选择，内置模型可以免费调用，而AI平台模型（AI搜索开放平台模型）需付费，AI搜索开放平台的调用计费单独出账单，与向量版检索版账单分开计费，计费详情参见计费方式和计费项。
- 选择AI搜索开放平台的模型，需要先完成AI搜索开放平台的工作空间和API Key开通。
生成字段：
- embedding处理类的服务，默认生成字段，无法进行勾选或删除。
接口调用配置：由于使用了AI搜索开放平台的模型服务，所以要对服务接口调用进行配置，点击接口调用配置的查看配置后，弹出 AI搜索开放平台模型服务接口调用配置页，需要完成工作空间、API Key、连接域名 的设置。